Introducción

En este análisis combinamos la potencia de R con un enfoque de storytelling para responder una pregunta tan intrigante como relevante: ¿Quiénes tuvieron más probabilidades de sobrevivir al hundimiento del Titanic en 1912 y por qué?. A través de una cuidadosa mezcla de texto explicativo, visualizaciones interactivas y fragmentos de código, guiaremos al lector paso a paso por el proceso de exploración de datos, asegurándonos de que cada gráfica y cada transformación refuercen la narrativa central.

Contexto Histórico y Pregunta Central

En la madrugada del 15 de abril de 1912, el lujoso transatlántico Titanic se hundió tras chocar contra un iceberg en el Atlántico Norte. De los 2 224 pasajeros que viajaban en sus diversas cubiertas, tan solo unos pocos lograron salvarse. Este trágico suceso no solo marcó un hito en la historia naval, sino que dejó un legado de preguntas sobre cómo factores sociales y económicos determinaron quién tenía acceso a los botes salvavidas.

Nuestro objetivo en este informe no es solo reproducir cifras, sino entender la historia que cuentan los datos. Queremos responder a la gran pregunta:

¿Qué combinaciones de clase social, género, edad, precio del boleto y puerto de embarque estuvieron asociadas con mayores probabilidades de supervivencia?

Para guiar este recorrido, planteamos tres hipótesis iniciales:

A lo largo del análisis exploraremos estas hipótesis mediante una serie de visualizaciones que mostrarán, de manera unidimensional, bidimensional y multidimensional, cómo cada factor individual y sus interacciones influyeron en el desenlace de esta tragedia.

Descripción de los Datos

En esta sección presentamos de forma clara la naturaleza y alcance del conjunto de datos que sustenta nuestro análisis. El archivo tested.csv contiene registros de 891 pasajeros del Titanic, con variables demográficas, socioeconómicas y de embarque. Comprender su estructura y calidad es clave para interpretar correctamente las visualizaciones que veremos más adelante.

¿Qué encontramos al inspeccionar estos datos?

Para asegurar la fiabilidad de nuestro estudio, evaluaremos también el porcentaje de valores faltantes en variables críticas:

Es importante aclarar que la falta de algunos valores podrían afectar la visualizacion estadística de los datos, por lo cual cados como “Cabina” que presentan solo un 30% de informacion, podrían no ser tan importantes de cara a evidenciar relaciones entre las variables.

A continuación cargamos los datos.

EDA Unidimensional

Una vez cargados los datos en bruto, el primer paso es explorar cada variable de forma individual para entender su distribución y detectar posibles sesgos o valores atípicos. A continuación presentamos tres visualizaciones que nos ayudan a “conocer” mejor a los pasajeros antes de cruzar información entre variables.

Distribución de Edad

La edad de los pasajeros muestra un amplio rango, desde recién nacidos hasta ancianos. Al graficar un histograma con 30 intervalos, podremos identificar si existen concentraciones en determinados grupos etarios (por ejemplo, presencia de muchos niños pequeños o predominio de adultos jóvenes). Esta visión inicial es fundamental para decidir si, más adelante, es necesario imputar valores faltantes o agrupar la variable en categorías (niños, adultos, ancianos).

  • ¿Se forma un “pico” alrededor de los 20–30 años?
  • ¿Hay un subgrupo notable de menores de 10 años o de mayores de 60?
  • ¿Qué proporción de la muestra carece de dato de edad y podría afectar análisis posteriores?

Conteo por Sexo

El género es un factor crítico para entender las decisiones de evacuación. Un gráfico de barras nos mostrará la proporción de hombres y mujeres abordo, sin mezclarlos aún con la supervivencia. Con este conteo simple confirmamos si existe un desequilibrio de género en la muestra, lo cual podría sesgar las tasas de supervivencia si, por ejemplo, hubiera muchos más hombres que mujeres.

  • ¿Cuál es la proporción aproximada de hombres vs. mujeres?
  • ¿Existe alguna categoría de género no habitual o datos faltantes?
  • ¿Cómo podría este desequilibrio inicial influir en las comparaciones posteriores?

Distribución de Tarifas

El precio del boleto (Fare) es otra dimensión unidimensional clave. Al graficar un histograma con 30 “bins”, observaremos la dispersión de tarifas, desde los boletos más económicos hasta los de lujo extremo. Una distribución muy sesgada hacia valores bajos, con colas largas de valores altos, indicaría la necesidad de usar escalas logarítmicas o agrupar tarifas en rangos para facilitar la interpretación.

  • ¿La mayoría de pasajeros pagó una tarifa baja (por debajo de USD 20)?
  • ¿Cuántos boletos superan los USD 100 o USD 200?
  • ¿Es recomendable transformar la variable para análisis posteriores (por ejemplo, log(Fare + 1))?

EDA Bidimensional

Para profundizar en cómo interactúan dos variables clave con la supervivencia, presentamos a continuación dos visualizaciones que combinan información de clase, edad, tarifa y resultado (sobrevivió o no). Estas gráficas bidimensionales nos permiten ver, de un vistazo, patrones que no aparecen al analizar cada variable aisladamente.

Proporción de Supervivientes por Clase

Este gráfico de barras apiladas y normalizadas muestra la proporción de pasajeros que sobrevivieron en cada una de las tres clases sociales.

  • ¿Qué porcentaje de pasajeros de Primera clase sobrevivió en comparación con Segunda y Tercera?
  • ¿Existe una clara brecha entre clases alta y baja que confirme la “prioridad” de embarque?
  • ¿Cómo influyen factores económicos (precio del ticket) en esta proporción?

Edad vs Tarifa según Supervivencia

En esta nube de puntos coloreada por supervivencia, cruzamos edad (eje X) y tarifa pagada (eje Y), para ver si hay una tendencia conjunta entre quién pagó más y quién era más joven.

  • ¿Se observa que los sobrevivientes tienden a tener tarifas más altas?
  • ¿Qué rango de edad muestra mayor densidad de puntos de color “sobrevivió”?
  • ¿Aparecen grupos diferenciados (por ejemplo, niños de tarifa baja vs adultos de tarifa alta)?

Para profundizar aún más, combinamos la categoría de grupo etario (“Niños”, “Adultos”, “Adultos mayores”) con la clase de pasaje (1ª, 2ª, 3ª) y el resultado de supervivencia.

EDA Multidimensional: Bubble Chart

Más allá de dos variables, el gráfico de burbujas añade un tercer y cuarto componente: el tamaño de la burbuja representa la clase (Pclass) y el color indica supervivencia. Esto nos permite identificar “clusters” de pasajeros con características similares.

  • ¿Las burbujas más grandes (Primera clase) se agrupan en zonas de tarifas altas y mayor sobrevivencia?
  • ¿Existen burbujas pequeñas (Tercera clase) en la zona de baja tarifa que indiquen supervivientes “atípicos”?
  • ¿Cómo se distribuye la edad dentro de cada nivel de clase y supervivencia?

Facetas: Puertos de Embarque y Sexo

Para estudiar cómo interactúan tres variables al mismo tiempo, usamos facetas que organizan la nube de puntos Edad vs Tarifa según el puerto de embarque (filas) y el sexo (columnas). Con scales = "free", cada panel ajusta sus ejes de forma independiente para resaltar las variaciones locales.

  • ¿Los pasajeros de Cherburgo pagaron tarifas sistemáticamente más altas que los de Southampton o Queenstown?
  • ¿Cómo varía la dispersión de edades entre hombres y mujeres en cada puerto?
  • ¿Hay paneles con muy pocos datos donde debamos tener cuidado al interpretar?

Imagen Compuesta Interactiva

Para cerrar el análisis con un resumen visual poderoso, combinamos tres gráficos interactivos en un solo lienzo mediante subplot de plotly. Cada panel aporta una dimensión distinta al storytelling:

  1. FigA: Porcentaje de supervivientes por sexo (barras apiladas).
  2. FigB: Densidad de tarifas por supervivencia (histograma normalizado).
  3. FigC: Diagrama de pastel de supervivencia por grupo de edad (“Niños”, “Adultos”, “Adultos mayores”).
  • FigA destaca la desigualdad de género en el acceso a botes.
  • FigB revela si los niños o ancianos recibieron prioridad.
  • FigC muestra la correlación entre tarifas altas y tasas de rescate.

Conclusiones